utilizadores_camara = nrow(atividade %>% filter(!is.na(seguidores), casa == "câmara", engaj_total_proprio>10))
utilizadores_senado = nrow(atividade %>% filter(!is.na(seguidores), casa == "senado", engaj_total_proprio>10))
total_camara = nrow(atividade %>% filter(casa == "câmara"))
total_senado = nrow(atividade %>% filter(casa == "senado"))
proporcao_camara = utilizadores_camara / total_camara
proporcao_senado = utilizadores_senado / total_senado
vetor_grafico = c(proporcao_camara, proporcao_senado)
rotulos = c("Câmara", "Senado")
data.frame(vetor_grafico, rotulos) %>% ggplot(aes(x = rotulos, y = vetor_grafico)) + geom_bar(stat = "identity", fill=c("#DC143C", "#6A5ACD"), col=c("#DC143C", "#6A5ACD"), alpha=.6) + labs(x = "Casas", y = "Pessoas que usam twitter (%)", title = "Visualização dos parlamentares que usam twitter em cada casa \n (Proporcionalmente)") + theme(plot.title = element_text(hjust = 0.5)) + scale_y_continuous(limits = c(0,1.1))
Com essa visualização, nós podemos perceber que, proporcionalmente, o senado tem mais usuários do twitter se comparado à câmara, superando a margem de 90 por cento de utilizadores, considerando que o representante tem um Twitter com mais de dez postagens.
Se a internet facilitou a interação dos congressistas com seus eleitores, eles deveriam aproveitar essa facilidade e utilizá-la em seu favor. Entretanto, nem todos os congressistas tem Twitter. Vamos então analisar como é a participação dos congressistas, por partido, no Twitter, tentando descobrir quais os partidos que menos tem representatividade:
atividade %>%
rowwise() %>%
mutate(tem_tt=if(!is.na(twitter) & !is.na(seguidores)) 1 else 0, n_tt=if(is.na(twitter) | is.na(seguidores)) 1 else 0) %>%
group_by(UF) %>%
summarise(com_tt = sum(tem_tt), sem_tt = sum(n_tt)) %>%
plot_ly(x = ~UF, y = ~sem_tt, type = 'bar', name = 'Não tem Twitter') %>%
add_trace(y = ~com_tt, name="Tem Twitter") %>%
layout(yaxis = list(title = 'Quantidade de Congressistas'), barmode = 'stack')
De modo geral, as pessoas participam igualmente dos twitter de representantes do mesmo partido? Ou a ideologia não é um fator tão importante quanto o indivíduo político?
atividade %>%
filter(!is.na(engaj_total)) %>%
select(id_parlamentar, partido, engaj_total) %>%
ggplot(aes(x=partido, y = engaj_total)) +
geom_boxplot(outlier.alpha = .6) +
geom_point(alpha=0.2, color='orange') +
theme(axis.text.x = element_text(angle = 90)) +
labs(x = "Partido", y="Engajamento Total", title="Engajamento por partido") +
scale_y_log10()
O engajamento é, em geral, bem distribuído dentro de cada partido para os representantes com mais de 25% e menos de 75% dos engajamentos, com a posição da mediana próxima do meio da caixa para a maioria deles. Apesar disso, há caixas bem elásticas, mostrando a existência de variações. As maiores estão no DEM, PODEMOS e PSB. A última análise que podemos fazer é que há poucos representantes com valores discrepantes para o engajamento total. Alguns deles são: Chico D’Angelo, Eros Biondini, Jandira Feghali, Marcelo Ramos e Paulo Eduardo Martins, com valores acima do máximo para o boxplot, e Dagoberto Nogueira, Euclydes Pettersen, Professor Joziel e Professora Rosa Neide, com valores Inferiores.
## # A tibble: 5 x 3
## # Groups: partido [5]
## partido nome_eleitoral engaj_total
## <chr> <chr> <dbl>
## 1 PDT CHICO D'ANGELO 489022
## 2 PROS EROS BIONDINI 38790
## 3 PCdoB JANDIRA FEGHALI 1302128
## 4 PR MARCELO RAMOS 22030
## 5 PSC PAULO EDUARDO MARTINS 1619667
## # A tibble: 4 x 3
## # Groups: partido [4]
## partido nome_eleitoral engaj_total
## <chr> <chr> <dbl>
## 1 PDT DAGOBERTO NOGUEIRA 4
## 2 PSC EUCLYDES PETTERSEN 5
## 3 PSL PROFESSOR JOZIEL 21
## 4 PT PROFESSORA ROSA NEIDE 28
Pelo senso comum parece correto afirmar, afinal quanto maior o número de tweets, maiores as chances de engajamento. Entretanto, é preciso analisar os dados antes de afirmar, para que não seja uma afirmação equivocada:
atividade %>% filter(!is.na(seguidores)) %>% mutate(total_tweets = n_proprio + n_retweet) %>%
ggplot(mapping = aes(total_tweets, engaj_total)) +
geom_point(alpha=.4, colour="#00CED1") +
xlab("Número de Tweets") + ylab("Engajamento Total") + ggtitle("Número de Tweets vs. Engajamento") +
geom_smooth(method = "lm", colour = "turquoise")
Entretanto, é difícil analisar se existe ou não uma relação nesse caso, pois a distribuição dos dados não facilita. Vejamos se ao alterar as escalas para uma escala logarítmica melhora nossa visualização:
atividade %>% filter(!is.na(seguidores)) %>% mutate(total_tweets = n_proprio + n_retweet) %>%
ggplot(mapping = aes(total_tweets, engaj_total)) +
geom_point(alpha=.4, colour="#00CED1") + scale_x_log10() + scale_y_log10() +
xlab("Número de Tweets") + ylab("Engajamento Total") + ggtitle("Número de Tweets vs. Engajamento") +
geom_smooth(method = "lm", colour = "turquoise")
Agora é possível ver melhor o formato e realmente identificar a correção entre os dados: quanto maior o número de tweets, maior o engajamento. Ao calcular a correlação, temos um valor de 0.5348224.